Tag

#coding benchmarks

3 articles

Zhipu AI's GLM-5.2 closes in on closed-source leaders in coding marathons

Zhipu AI's GLM-5.2 closes in on closed-source leaders in coding benchmarks, trailing only Anthropic's Claude Opus 4.8 by one percentage point in the FrontierSWE test.

Jun 1741

Qwen3.6-27B beats much larger predecessor on most coding benchmarks

This article explains how Alibaba's Qwen3.6-27B model outperforms its much larger predecessor on coding benchmarks, highlighting advancements in parameter efficiency and model optimization techniques.

Apr 25105

Why we no longer evaluate SWE-bench Verified

OpenAI announces it will no longer evaluate SWE-bench Verified due to contamination and data leakage issues. The organization recommends SWE-bench Pro as a replacement.

Feb 23152